image crawlr
僕の代わりに画像を蒐集してくれるcrawlrが欲しい
クロール対象
ブログ(まとめサイト)
pixiv
danbooru
保存するデータ
画像バイナリ
保存元のURL
画像のタグ
クローラー用スクリプト
取得対象のURL
記事取得のための、セレクタ
画像取得のための、セレクタ(例: imgのsrc)
タグ取得のための、セレクタ
次の記事取得のためのセレクタ
技術スタック
end-to-end testing
Puppeteer or Playwright
HTMLパーサーでトラバーサル?
課題
画像の保存先(S3でも大した金額にならない。が、ダウンロードに時間がかかりそう。
S3 は outbound traffic で課金されるため、 Wasabi や Cloudflare R2 がいい。